Chen Yulin's BlogChen Yulin's Blog
HomeArchivesCategoriesTagsAbout
  目录
BAGEL-Unified-Multimodal-Pretraining
Posted 2026-02-06Updated 2026-02-15Review10 minutes read (About 1443 words)   visits

BAGEL-Unified-Multimodal-Pretraining

BAGEL: Emerging Properties in Unified Multimodal Pretraining

论文链接 | 项目主页

作者:Chaorui Deng, Deyao Zhu, Kunchang Li 等 (ByteDance Seed)


研究背景

统一多模态理解与生成(Unified Multimodal Understanding and Generation)是当前AI领域的热点方向。GPT-4o、Gemini 2.0等闭源系统展现了强大能力,但开源模型与之仍存在显著差距。现有开源统一模型主要在图文配对数据上训练,缺乏对复杂多模态交错数据(Interleaved Data)的利用。


研究目标

  1. 缩小开源统一多模态模型与闭源系统(GPT-4o、Gemini 2.0)之间的性能差距
  2. 解决现有模型架构中理解与生成模块之间的信息瓶颈(Bottleneck)问题
  3. 构建能够支持复杂多模态推理的大规模交错数据

核心概念

理解与生成之间的瓶颈(Bottleneck)

在采用 External Diffuser 架构的模型中,LLM/VLM 与扩散模型通过轻量级适配器连接:

  • 语言模型生成少量潜在token作为”语义条件”
  • 这些token被传递给扩散模块生成图像
  • 问题:LLM的丰富上下文被压缩到少量token中,导致信息损失,尤其影响长上下文多模态推理

Mixture-of-Transformer-Experts (MoT)

与传统MoE不同,MoT复制整个Transformer层而非仅FFN:

  • 理解专家:处理文本和ViT token
  • 生成专家:处理VAE token
  • 两个专家通过共享自注意力在每层交互

研究方法

架构设计

BAGEL采用无瓶颈的集成Transformer方案:

双视觉编码器:

  • 理解编码器:SigLIP2-so400m/14,捕获语义信息
  • 生成编码器:FLUX VAE,处理像素级信息

训练范式

模态 方法 损失函数
文本 Next-Token-Prediction Cross-Entropy
视觉 Rectified Flow MSE

损失权重比:$\text{CE} : \text{MSE} = 0.25 : 1$

广义因果注意力(Generalized Causal Attention)

对于交错多图像生成:

  • Noised VAE tokens:用于Rectified-Flow训练
  • Clean VAE tokens:作为后续生成的条件
  • ViT tokens:统一输入格式,提升交错生成质量

采用Diffusion Forcing策略,对不同图像添加独立噪声级别。


数据构���

数据规模

数据类型 数据量 Token数
纯文本 400M 0.4T
图文配对(理解) 500M 0.5T
图文配对(生成) 1600M 2.6T
交错理解数据 100M 0.5T
交错生成数据(视频) 45M 0.7T
交错生成数据(网页) 20M 0.4T

交错数据构建流程

视频数据:

  1. 视频预处理(分割、裁剪、质量过滤)
  2. 使用蒸馏的小型VLM生成帧间描述
  3. 构建时序对齐的交错序列

网页数据:

  1. 两阶段主题筛选(LLM + fastText)
  2. 质量过滤(分辨率、清晰度、相关性)
  3. Caption-first策略:为每张图像生成描述并插入其前

推理增强数据(Reasoning-Augmented Data)

受DeepSeek-R1启发,构建50万条推理增强样本:

  • Text-to-Image生成
  • 自由形式图像操作
  • 概念性编辑

主要发现

涌现能力(Emerging Properties)

论文定义:某能力在早期训练阶段不存在,但在后期训练中出现

不同能力的涌现时间点(达到85%峰值性能所需token数):

能力 涌现时间点
多模态理解 ~0.18T tokens
图像生成 ~0.68T tokens
图像编辑 ~2.64T tokens
智能编辑(复杂推理) ~3.61T tokens

关键发现:

  • 理解和生成能力最先收敛
  • 编辑能力随后涌现
  • 需要复杂推理的智能编辑能力最后涌现
  • ViT tokens对智能编辑至关重要(移除后性能下降16%)

架构对比实验

在1.5B模型上对比Dense、MoE、MoT三种架构:

  • MoT在生成任务上优势最明显
  • 表明理解和生成可能需要不同的参数空间

实验结果

多模态理解(7B参数)

基准 BAGEL Janus-Pro Qwen2.5-VL
MMMU 58.6 41.8 49.3
MM-Vet 73.1 55.9 62.8
MathVista 69.3 54.7 68.2
MMVP 67.2 48.3 -

图像生成(GenEval)

模型 Overall
BAGEL (w/ rewriter) 0.88
BAGEL 0.82
Janus-Pro 0.80
FLUX.1-dev 0.82
SD3-Medium 0.74

智能编辑(IntelligentBench)

模型 Score
GPT-4o 78.9
BAGEL w/ Self-CoT 55.3
BAGEL 44.9
Gemini 2.0 57.6
Step1X-Edit 14.9

讨论

优势

  • 无瓶颈架构:理解与生成模块间无损信息交互
  • 涌现能力:首次系统揭示统一多模态预训练的涌现规律
  • 开源贡献:发布代码、模型权重和数据构建协议
  • 推理增强:CoT显著提升复杂任务表现(WISE: +0.18, IntelligentBench: +10.4)

局限性

  • 与GPT-4o在智能编辑上仍有差距(55.3 vs 78.9)
  • 模型规模相对较小(7B active / 14B total)
  • 训练计算成本高(需要大规模交错数据)

相关工作

统一多模态模型:

  • Janus-Pro:采用离散视觉tokenizer的自回归方法
  • MetaQuery-XL:冻结预训练VLM backbone
  • Transfusion:统一AR和扩散的早期探索

视觉生成:

  • FLUX.1-dev:当前SOTA扩散模型
  • SD3-Medium:Stable Diffusion系列

未来方向

  1. 更大规模训练:探索更大模型和更多数据下的涌现行为
  2. 视频生成:论文展示了初步的视频生成能力,有待深入
  3. 强化学习:无瓶颈架构为多模态RL提供了基础
  4. 世界建模:导航、3D操作等世界建模任务的进一步探索

参考文献

  • Deng et al. (2025). Emerging Properties in Unified Multimodal Pretraining. arXiv:2505.14683
  • DeepSeek-AI (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
  • Esser et al. (2024). Scaling Rectified Flow Transformers for High-Resolution Image Synthesis (SD3)

BAGEL-Unified-Multimodal-Pretraining

http://chen-yulin.github.io/2026/02/06/[OBS]Deep Learning-BAGEL-Unified-Multimodal-Pretraining/

Author

Chen Yulin

Posted on

2026-02-06

Updated on

2026-02-15

Licensed under

#Research-paperMulti-modalVLMDiffusionTransformerMoEUnified-MultimodalFoundationModelImage-generationImage2Text
exist_label
LingBot-VLA

Comments

Chen Yulin

Chen Yulin

SJTU student

Manchester by the Sea

Posts

312

Categories

10

Tags

235

Follow

Catalogue

  • BAGEL: Emerging Properties in Unified Multimodal Pretraining
    • 研究背景
    • 研究目标
    • 核心概念
      • 理解与生成之间的瓶颈(Bottleneck)
      • Mixture-of-Transformer-Experts (MoT)
    • 研究方法
      • 架构设计
      • 训练范式
      • 广义因果注意力(Generalized Causal Attention)
    • 数据构���
      • 数据规模
      • 交错数据构建流程
      • 推理增强数据(Reasoning-Augmented Data)
    • 主要发现
      • 涌现能力(Emerging Properties)
      • 架构对比实验
    • 实验结果
      • 多模态理解(7B参数)
      • 图像生成(GenEval)
      • 智能编辑(IntelligentBench)
    • 讨论
      • 优势
      • 局限性
    • 相关工作
    • 未来方向
    • 参考文献

Archives

  • February 202611
  • January 20268
  • December 20253
  • November 20256
  • October 20251
  • September 20253
  • August 20256
  • July 20255
  • June 20256
  • May 202510
  • April 202517
  • March 202545
  • February 202512
  • January 202513
  • December 202412
  • November 20244
  • October 202418
  • September 202416
  • August 202413
  • July 20243
  • June 20245
  • May 202413
  • April 202417
  • March 20241
  • January 20241
  • December 20231
  • May 202346
  • August 20221
  • May 20226
  • April 20229

Recents

exist_label

2026-02-14

exist_label

Note

BAGEL-Unified-Multimodal-Pretraining

2026-02-06

BAGEL-Unified-Multimodal-Pretraining

Review

LingBot-VLA

2026-02-05

LingBot-VLA

Review

Mixture-of-Experts-Survey

2026-02-05

Mixture-of-Experts-Survey

Review

2026-02-05

人形机器人控制方法综述

Note

Tags

3D-Scene17
6-D3
AI16
AIGC1
API1
AR2
Academic1
Algorithm1
Aliyun1
App2
Atlas1
BS41
Bayesian-Inference1
Beautify1
Behaviorism1
Business1
C1
CADC1
CD1
CLI1
CLIP11
CNN1
CV68
Camera1
Capstone10
Chemistry1
Claude1
Communication2
Contrastive-Learning5
Control3
Csharp9
Css1
Cuda3
DD1
DINO4
DT1
Dataframe1
Debate5
Debugger1
Deep-Learning1
Development-Tools1
Diffusion2
Diffusion-Policy1
DiffusionModel4
Discrete-Mathematics1
Disney1
Docker1
Docs2
Dynamic-programming1
ESP322
Education1
Embeded-System9
Embodied-AI19
Emoation1
Emotion13
Ethic1
Experiment2
FL1
FPN2
Family1
Federated-Learning1
Foundation1
FoundationModel4
Functional programming1
GPT3
Game5
Gated-NN3
Git7
Github1
Godot3
Graph1
HPC1
HRI2
Haskell1
Health2
Hexo10
Hierarchical4
Html5
Humanism1
Humanoid1
HumanoidRobot1
Hybrid-Control1
Hyprland2
IK1
Image-Grounding2
Image-Text4
Image-generation2
Image2Text7
ImgGen3
ImitationLearning5
Information-Theory1
Jolt1
Json1
LLM17
LSP2
LatentAction1
Latex2
Lego1
Life4
LinearAlgebra1
Linux22
Live2d1
Love4
Lua1
MBTI1
ML14
MPC2
MR/AR3
Machine-Learning3
Mason1
Math7
Meme1
Message-Passing2
MindPlus1
MoE2
Mod3
Model-Predictive-Control1
Motivation1
Moveit1
Movie1
Multi-Agent1
Multi-modal14
Multi-view1
MultiModal5
Music5
NLP6
NN12
Network2
Nodejs5
Numpy1
Nvim9
Object-Detection9
Open-Vocabulary11
OpenCV1
Oral1
PHD1
PSY5
Pandas2
Panoptic1
Path1
Philosophy3
PhysX1
Physical-Scene4
Physics-engine1
Pio2
Planning1
Plugin8
PoseEstimation3
Postgraduate1
Prefab1
Probability2
Python30
Pytorch1
QML1
Quantum1
RAG1
RL3
RNN4
ROS6
Reading19
Real2Sim2
Reconstruct13
Regex2
Reinforcement-Learning2
Reinforcement-learning1
Repository5
Representation-Learning5
Research-paper97
Robot5
RobotLearning13
Robotics38
SJTU-Lecture1
SQL2
SSH3
Scalability2
Scene-graph34
Scene-synthesis2
Science-fiction1
Scrap1
Script2
Segmentation8
Semantic15
Shader3
Shell4
Signals and Systems1
Sim2Real1
Sklearn1
Snippets1
Society4
Star-rail1
Statistics2
Subgraph1
Submodule1
Supervised-learning2
Survey4
TC1
TOEFL1
Task-Planning9
Tasks5
Tech Communication1
Torch5
Transformer20
Translation-Embedding2
Travel5
UI1
Unified-Multimodal1
Unity20
Unsupervised-learning1
VAE2
VLA4
VLM9
VLP5
VQ-VAE1
Variational-Inference1
Version-management1
ViT5
VideoEditing2
Vim1
Visual-Relation23
WSL1
Waybar1
Wayland1
Web1
Website1
Well-being1
Window-manager2
WorldModel2
YKLL3
Zen2
♥️2
实习1
🍢1
🍰1
🐱2
🧀1
Chen Yulin's BlogChen Yulin's Blog

© 2026 Chen Yulin  Powered by Hexo & Icarus

×